sql - GROUP BY 和 ORDER BY

hadoop - 您可以使用 Spark SQL/Hive/Presto 直接从 Parquet/S3 复制到 Redshift 吗？

我们有大量服务器数据存储在S3中(很快将采用Parquet格式)。数据需要一些转换，因此它不能是S3的直接副本。我将使用Spark来访问数据，但我想知道是否可以不使用Spark来处理它，写回S3，然后复制到Redshift，如果我可以跳过一个步骤，运行查询以提取/转换数据，然后将其直接复制到Redshift？最佳答案没问题，完全有可能。读取parquet的Scala代码(取自here)valpeople:RDD[Person]=...people.write.parquet("people.parquet")valparquet

sql - 配置单元中 `load data inpath ` 和 `location` 之间的区别？

在我的公司，我经常看到这两个命令，我想知道它们之间的区别，因为它们的功能对我来说似乎是一样的:1createtable(namestring,numberdouble);loaddatainpath'/directory-path/file.csv'into;2createtable(namestring,numberdouble);location'/directory-path/file.csv';它们都将数据从HDFS上的目录复制到HIVE上的表目录中。使用这些时是否应该注意差异？谢谢你。最佳答案是的，它们的用途完全不同。

配置单 location strong section code sql hadoop hive hdfs hiveql

sql - 如何在 Presto/Hive 中将日期格式 YYYY-MM-DD 转换为整数 YYYYMMDD？

如何在Presto/Hive中将格式为YYYY-MM-DD的日期CONVERT为整数YYYYMMDD？我正在尝试将下面的列表转换为YYYYMMDD整数WITHall_datesas(SELECTCAST(date_columnASDATE)date_columnFROM(VALUES(SEQUENCE(FROM_ISO8601_DATE('2017-07-01'),FROM_ISO8601_DATE('2017-11-15'),INTERVAL'1'DAY)))ASt1(date_array)CROSSJOINUNNEST(date_array)ASt2(date_column))我试

何在 YYYY-MM-DD code section date_column sql date hadoop hive presto

scala - 从配置单元表中读取并使用 spark sql 写回它

我正在使用SparkSQL读取Hive表并将其分配给scalavalvalx=sqlContext.sql("select*fromsome_table")然后我对数据框x进行一些处理，最后得到一个数据框y，它具有与表some_table完全相同的模式。最后，我试图将y数据框插入到同一个配置单元表some_table中y.write.mode(SaveMode.Overwrite).saveAsTable().insertInto("some_table")然后我得到错误org.apache.spark.sql.AnalysisException:Cannotinsertoverwri

配置单 scala table 34 section apache-spark hadoop apache-spark-sql

sql - 在 Hive 中使用定界符连接多行

我需要使用“~”作为分隔符逐行连接字符串值。我有以下数据:我需要按照'row_id'的升序为每个'id'连接'Comment'列，并以'~'作为分隔符。预期输出如下:GROUP_CONCAT不是一个选项，因为它在我的Hive版本中无法识别。我可以使用collect_set或collect_list，但我无法在两者之间插入定界符。有什么解决方法吗？最佳答案 collect_list返回数组，而不是字符串。可以使用concat_ws将数组转换为定界字符串。这会起作用，没有特定的注释顺序。selectid,concat_ws('~',c

多行 Hive section code strong sql hiveql concat

VSCode插件 SQL Server 连接 Microsoft Server SQL

VSCode插件SQLServer连接MicrosoftServerSQL前言之前一直用SQLServerManagementStudio连接数据库，感SQLServerManagementStudio连接骤要简单一些，有时候就需要从IDE切换到数据库比较麻烦还比较消耗机器资源，so想尝试vscode连接数据库，就顺便把我的步骤记录下来。安装mssql扩展先在vscode用快捷键（Ctrl+Shift+X）打开扩展页面，输入sqlserver（mssql）点击install连接MSSQL安装好插件后，点击SQLserver(mssql)或快捷键Ctrl+Alt+D打开添加连接点击Connect

Server SQL 插入 img img-blog vscode microsoft

SQL：查询结果升序、降序排列

SQL：查询结果升序、降序排列前言一、orderby前言SQL查询时，查询结果按照某一列参数升序或者降序排列后再输出是常见的用法，本文主要介绍了利用orderby对输出结果进行排序的用法本文部分内容参考自：SQL37查找后多列排序SQL38查找后降序排列一、orderby一句话说明：orderby可以按照降序或者升序对检索结果进行排序强调：orderby默认按照ASC升序排列，可以选择DESC降序排列例题1：现在运营想要取出用户信息表中的年龄和gpa数据，并先按照gpa升序降序，再按照年龄降序排序输出，请取出相应数据。//升序排列ASC可以省略，降序排列DESC不可省略！SELECTdevic

升序 SQL span class token 数据库

sql - 错误消息 : TOK_ALLCOLREF is not supported in current context - while Using DISTINCT in HIVE

我在HIVE0.11中使用简单的命令:SELECTDISTINCT*FROMfirst_working_table;，我收到以下错误消息:FAILED:SemanticExceptionTOK_ALLCOLREFisnotsupportedincurrentcontext.有人知道为什么会这样吗？我们该如何解决？谢谢，加仑。最佳答案 Hive不支持DISTINCT*语法。您可以手动指定表的每个字段以获得相同的结果:SELECTDISTINCTfield1,field2,....,fieldNFROMfirst_working_ta

TOK_ALLCOLREF ALLCOLREF section code DISTINCT sql hadoop hive bigdata

hadoop - 显示配置单元 View 的 SQL 定义

如何以SQL形式显示配置单元View的View定义。大多数关系数据库都支持这样的命令SHOWCREATEVIEWviewname; 最佳答案使用显示创建表。阅读hivemanual了解更多详情。关于hadoop-显示配置单元View的SQL定义，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/24579820/

配置单 hadoop section code hive

sql - 如何通过运算符(operator)从 Hive 组中获取元素数组/包？

我想按给定字段分组并获得包含分组字段的输出。以下是我要实现的目标的示例:-假设一个名为“sample_table”的表有两列，如下所示:-F1F2001111001222001123002222002333003555我想编写将提供以下输出的Hive查询:-001[111,222,123]002[222,333]003[555]在Pig中，这可以很容易地通过这样的事情来实现:-grouped_relation=GROUPsample_tableBYF1;有人可以建议在Hive中是否有一种简单的方法可以做到这一点？我能想到的是为此编写一个用户定义函数(UDF)，但这可能是一个非常耗时的选

运算符 operator code section pre sql hadoop hive apache-pig bigdata

287 288 289290291 292 293